Tarea final Diplomado

Diplomado en Análisis de datos con R para la Acuicultura.

Roberto Teran

25 June 2022

INTRODUCCIÓN

Tradicionalmente la acuicultura vieen trabajando con modelos de crecimiento que solo incorporan una variable que es mas o menos conocida y que por calentamiento goblar viene en aumento en los ultimos años, pero siempre hubo una variable que hizo ruido pero que no estaba siendo incluida en el modelo de crecimiento, esta variable es el oxigeno disuelto, el cual afecta importantemente los porcesos productivos de engorda de salmones castigando los crecimientos si es que este parametro se mantenia en bajos rangos incluso generando mortalidades asociadas cuando es muy baja su concentracion. a continuacion trataremos de confirmar la estrecah relacion que existe entre el sgr y el o2.

Exploracion de datos ambientales y crecimiento en centro de cultivo de la XI region, sector Huaitecas.

##       sem           sgr               o2              temp      
##  Min.   :  1   Min.   :0.1600   Min.   : 5.398   Min.   : 9.60  
##  1st Qu.:114   1st Qu.:0.5400   1st Qu.: 7.548   1st Qu.:10.51  
##  Median :227   Median :0.7700   Median : 8.320   Median :11.47  
##  Mean   :227   Mean   :0.8765   Mean   : 8.030   Mean   :11.48  
##  3rd Qu.:340   3rd Qu.:1.1600   3rd Qu.: 8.653   3rd Qu.:12.36  
##  Max.   :453   Max.   :2.5000   Max.   :10.974   Max.   :13.33

##Limpieza de datos. Permite comprobar si hay perdida de datos en el marco de datos.

missmap(rt ,col=c('white','black'),y.at=1,y.labels='',legend=TRUE)
## Warning: Unknown or uninitialised column: `arguments`.
## Unknown or uninitialised column: `arguments`.

se puede apreciar que no hay falta de datos

Graficas incluidas

Para data revisada se realiza y se busca la mejor correlacion entre las variables

pairs.panels(rt[,2:4], method = "pearson", hist.col = "magenta",  density = FALSE, font=1)

corPlot(rt , cex = 0.5, main = "Matriz de correlación")

al obtener una correlacion mas baja mediante Pearson intentaremos mediante Spearman

obtuvimos una correlacion de 0.649

Buscamos relacion grafica

ggplot(rt, aes(x=sgr, y=o2)) + 
  geom_point() + theme_light()

ggplot(rt, aes(x=sem, y=o2)) + 
  geom_point() + theme_light()

ggplot(rt, aes(x=sgr, y=temp)) + 
  geom_point() + theme_light()

Aun no puede darse una respuesta clara de cual podria ser la mejor correlacion

##Muestre el efecto de las variables independientes con respecto a la variable dependiente.

## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

La variable Sgr por lo que se puede ver es que depende claramente de O2 y temperatura .

##obtendremos las estimaciones de los parametros estadisticos##

## 
## Call:
## lm(formula = sgr ~ o2, data = rt)
## 
## Coefficients:
## (Intercept)           o2  
##     -1.2128       0.2602

En la salida anterior se observan los valores estimados de ??0 y ??1 pero no aparece la estimacion de ?? Para obtener una tabla de resumen con detalles del modelo ajustado, se usa la funcion generica summary

## 
## Call:
## lm(formula = sgr ~ o2, data = rt)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.20260 -0.24981 -0.07131  0.16356  1.50738 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.21280    0.16107   -7.53  2.8e-13 ***
## o2           0.26020    0.01993   13.05  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3881 on 451 degrees of freedom
## Multiple R-squared:  0.2743, Adjusted R-squared:  0.2727 
## F-statistic: 170.4 on 1 and 451 DF,  p-value: < 2.2e-16

Para incluir la recta de regresion que representa el modelo ajustado anterior…

la regresion lineal no se ajusta de buena manera a la nube de datos

utilizaremos regresion multiple

a medida que aumenta la temperatura, aumenta el SGR y en condiciones de mayor o2

## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
## No scatter3d mode specifed:
##   Setting the mode to markers
##   Read more about this attribute -> https://plotly.com/r/reference/#scatter-mode

la grafica anterior confirma los aprecia anteriormente, el color mas claro muestra los puntos mas optimos.

#basandonos en el modelo 3d, la expresion que se ajusta es:

## 
## Call:
## lm(formula = sgr ~ o2 + temp, data = rt)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.27840 -0.24930 -0.08086  0.18735  1.48631 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.73268    0.38872  -4.457 1.05e-05 ***
## o2           0.27823    0.02338  11.898  < 2e-16 ***
## temp         0.03266    0.02223   1.469    0.143    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3876 on 450 degrees of freedom
## Multiple R-squared:  0.2777, Adjusted R-squared:  0.2745 
## F-statistic: 86.52 on 2 and 450 DF,  p-value: < 2.2e-16

Para incluir el plano de regresion que representa el modelo ajustado anterior

Se crea el grafico 3d y se guarda en un objeto, por ejemplo mi_3d

podemos ver que en la grafica 3D la regresion se ajusta de mejor manera los a ambas variables una dependeiente de la otra. haca ya llevamos a un plano la regresion mostrando la mejosr concordancia entre el O2 y el Sgr.

Prueba Paramtrica

Ho: la variable respuesta es la misma en todas las poblaciones valoradas

Ha: la variable respuesta es mayor en alguna de las poblaciones

Cuando no se cumplen las hipotesis exigidas por el modelo ANOVA, es posible utilizar la prueba no paramétrica Kruskal-Wallis: ¿hay diferencias significativas entre las poblaciones?